Para este projeto escolhi uma das bases de dados sugeridas pela Udacity: Financiamento da Campanha Presidencial dos EUA de 2016.
A idéia inicial era de se fazer a analise do estado de NY, no entanto havia uma discrepancia muito grande nas contibuições uma vez que o comite “HILLARY VICTORY FUND” foi responsável por 45% do valor financiado referente a este estado em apenas 23 das 649.460 contribuições registradas, sendo todas elas com valores acima de U$ 100.000. Este foi o único contribuinte que realizou contribuições acima deste valor. A maior contribuição abaixo deste valor de U$ 100.000 foi de U$ 11.816,25. Poderia ser feita uma remoção dos outliers, porém esta ação traria um dataset que não representa o conjunto de dados do estado.
#Verifica a distribuição dos valores de controbuições do dataset
summary(USACampaign$contb_receipt_amt)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -10100 15 27 264 100 12777706
USACampaign$contb_receipt_amt <- abs(USACampaign$contb_receipt_amt)
USACampaign$contb_range <- cut(USACampaign$contb_receipt_amt, c(0,100,500,2000,50000,max(USACampaign$contb_receipt_amt)))
#Verifica contribuintes com contribuições superiores a U$ 100.000
USACampaign[USACampaign$contb_receipt_amt >= 100000,]$contbr_nm
## [1] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [3] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [5] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [7] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [9] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [11] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [13] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [15] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [17] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [19] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [21] HILLARY VICTORY FUND - UNITEMIZED HILLARY VICTORY FUND - UNITEMIZED
## [23] HILLARY VICTORY FUND - UNITEMIZED
## 119407 Levels: BLACKMORE, ANDI POTAMKIN ... ZYWICZYNSKI, JERRY MR.
#Valor máximo abaixo de U$ 100.000
max(USACampaign[USACampaign$contb_receipt_amt < 100000,]$contb_receipt_amt)
## [1] 11816.25
sum(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",]$contb_receipt_amt)/sum(USACampaign$contb_receipt_amt)*100
## [1] 45.12158
dim(USACampaign[USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED",])
## [1] 23 21
USACampaign$hillary_comitte <- ifelse(USACampaign$contbr_nm == "HILLARY VICTORY FUND - UNITEMIZED", "Y", "N")
Quando comparamos as contribuições do contribuinte HILLARY VICTORY FUND - UNITEMIZED e os demais contribuintes, vemos que o valor total das contribuições são próximos, porém as quantidade de contribuições da comite da Hillary são significamente menores.
Abaixo uma comparação entre a quantidade de contribuições realizadas por faixa de valor versus o total arrecadado.
É possível notar também o impacto das contribuições de valores elevados quando comparamos os quartils dos valores com e sem estas contribuições, para cada candidato.
Esta discrepancia prejudicaria a avaliação das contribuições entre os candidatos e restringiria as analises dos dados. Desta forma optei por fazer a analise das contribuições feitas pelos eleitores do estado do TX, que traz uma distribuição mais homogenea nas contribuições.
Inicamos aqui a análise do dataset do estado do Texas (TX). Algumas verificações simples nesta base de dados nos aponta necessidade de tratamento das informações. Este tratamento será feito em um script a parte, em python tratarDados.py. Maiores detalhes sobre este tratamentos pode ser visualizado no arquivo Tratamento de dados.md.
## [1] 12084 19
## [1] 24 19
##
## DALLA DALLAA DALLAD DALLALS DALLAS
## 1 1 4 1 40656
## DALLAS TEXAS DALLAS TX DALLAS, DALLAS, TX DALLAS9
## 2 1 1 1 1
## DALLASTX DALLASV DALLLAS
## 1 2 1
## [1] 16600
## RETIRED NOT EMPLOYED
## 142978 29745 24405
## LAWYER SELF-EMPLOYED TEACHER
## 17517 13267 13119
## HOMEMAKER ENGINEER PHYSICIAN
## 11325 9016 8817
## SALES NURSE CONSULTANT
## 6943 5613 5519
## REAL ESTATE MANAGER ACCOUNTANT
## 5327 4851 4054
## SOFTWARE DEVELOPER CEO PRESIDENT
## 2896 2750 2386
## SOFTWARE ENGINEER RN STUDENT
## 2374 2372 2357
## CPA EXECUTIVE EDUCATOR
## 2081 2008 1866
## PROJECT MANAGER DIRECTOR WRITER
## 1710 1472 1425
## RANCHER TRUCK DRIVER MARKETING
## 1409 1403 1279
## OFFICE MANAGER INSURANCE PILOT
## 1262 1224 1167
## PHARMACIST ARTIST ADMINISTRATOR
## 1118 1096 1049
## PSYCHOLOGIST ANALYST GEOLOGIST
## 1049 1034 1030
## INVESTOR CONSTRUCTION FARMER
## 1021 1005 977
## CONTRACTOR LIBRARIAN PARALEGAL
## 970 966 945
## REFUSED CFO SOCIAL WORKER
## 922 901 880
## VICE PRESIDENT ARCHITECT DENTIST
## 859 857 843
## MANAGEMENT DISABLED IT
## 806 805 777
## FINANCE DRIVER BOOKKEEPER
## 754 739 720
## PASTOR MUSICIAN INVESTMENTS
## 716 715 704
## ELECTRICIAN BANKER SALES MANAGER
## 665 659 659
## IT MANAGER FINANCIAL ADVISOR DESIGNER
## 652 641 640
## MINISTER VETERINARIAN PHOTOGRAPHER
## 616 615 605
## GENERAL MANAGER PSYCHOTHERAPIST FLIGHT ATTENDANT
## 573 573 572
## GEOPHYSICIST GRAPHIC DESIGNER SECRETARY
## 572 569 567
## SCIENTIST TECHNICIAN ENTREPRENEUR
## 564 534 523
## PROPERTY MANAGER BUSINESS ANALYST SUPERVISOR
## 514 513 499
## RETAIL EDUCATION CLERK
## 484 480 477
## ADMINISTRATIVE ASSISTANT LEGAL ASSISTANT BUSINESS
## 471 470 469
## PHYSICAL THERAPIST ELECTRICAL ENGINEER HUMAN RESOURCES
## 468 456 456
## LANDMAN BANKING SOFTWARE
## 454 449 447
## EXECUTIVE DIRECTOR EXECUTIVE ASSISTANT ACCOUNT MANAGER
## 440 437 429
## SALES REPRESENTATIVE PARTNER (Other)
## 418 403 168005
## NA's
## 139
## Min. 1st Qu. Median Mean 3rd Qu.
## "2013-10-21" "2016-02-06" "2016-04-29" "2016-04-27" "2016-08-12"
## Max.
## "2016-12-31"
## [1] 548372 29
## [1] "cmte_id" "cand_id"
## [3] "cand_nm" "contbr_nm"
## [5] "contbr_city" "contbr_st"
## [7] "contbr_zip" "contbr_employer"
## [9] "contbr_occupation" "contb_receipt_amt"
## [11] "contb_receipt_dt" "receipt_desc"
## [13] "memo_cd" "memo_text"
## [15] "form_tp" "file_num"
## [17] "tran_id" "election_tp"
## [19] "X" "city"
## [21] "lon" "lat"
## [23] "party" "cmte_nm"
## [25] "cmte_dsgn" "contb_receipt_dt_day"
## [27] "contb_receipt_dt_month" "contb_receipt_dt_year"
## [29] "contb_receipt_date"
## 'data.frame': 548372 obs. of 29 variables:
## $ cmte_id : Factor w/ 26 levels "C00458844","C00496034",..: 7 16 16 8 7 7 16 16 7 16 ...
## $ cand_id : Factor w/ 25 levels "P00003392","P20002671",..: 1 23 23 12 1 1 23 23 1 23 ...
## $ cand_nm : Factor w/ 25 levels "Bush, Jeb","Carson, Benjamin S.",..: 4 23 23 20 4 4 23 23 4 23 ...
## $ contbr_nm : chr "MILLARD, SUSAN C." "SELLERS, CHRISTINE" "SELLERS, DAVID" "LEONE, MICHELLE" ...
## $ contbr_city : chr "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
## $ contbr_st : chr "TX" "TX" "TX" "TX" ...
## $ contbr_zip : chr "784112213" "76108" "77318" "761826749" ...
## $ contbr_employer : chr "N/A" "BAYLOR HEALTHCARE SYSTEM" "RETIRED" "NOT EMPLOYED" ...
## $ contbr_occupation : Factor w/ 17309 levels ""," COUNSELOR",..: 13427 10139 13427 10106 14283 13859 1 1 11331 7205 ...
## $ contb_receipt_amt : num 37.1 127.1 80 15 50 ...
## $ contb_receipt_dt : chr "16-APR-16" "28-SEP-16" "01-DEC-16" "06-MAR-16" ...
## $ receipt_desc : chr "" "" "" "" ...
## $ memo_cd : logi NA NA NA NA NA NA ...
## $ memo_text : logi NA NA NA NA NA NA ...
## $ form_tp : chr "SA18" "SA18" "SA18" "SA17A" ...
## $ file_num : int 1091718 1146165 1146165 1077404 1091718 1091718 1146165 1146165 1091718 1146165 ...
## $ tran_id : chr "C4725643" "SA18.90357" "SA18.120784" "VPF7BKZGYE4" ...
## $ election_tp : chr "P2016" "G2016" "G2016" "P2016" ...
## $ X : logi NA NA NA NA NA NA ...
## $ city : chr "CORPUS CHRISTI" "FORT WORTH" "WILLIS" "NORTH RICHLAND HILLS" ...
## $ lon : num -97.4 -97.3 -95.5 -97.2 -98.5 ...
## $ lat : num 27.8 32.8 30.4 32.9 29.4 ...
## $ party : chr "DEM" "REP" "REP" "DEM" ...
## $ cmte_nm : chr "HILLARY FOR AMERICA" "DONALD J. TRUMP FOR PRESIDENT, INC." "DONALD J. TRUMP FOR PRESIDENT, INC." "BERNIE 2016" ...
## $ cmte_dsgn : chr "P" "P" "P" "P" ...
## $ contb_receipt_dt_day : int 16 28 1 6 9 4 29 30 21 4 ...
## $ contb_receipt_dt_month: Ord.factor w/ 12 levels "JAN"<"FEB"<"MAR"<..: 4 9 12 3 4 4 11 11 4 10 ...
## $ contb_receipt_dt_year : int 16 16 16 16 16 16 16 16 16 16 ...
## $ contb_receipt_date : Date, format: "2016-04-16" "2016-09-28" ...
## cmte_id cand_id cand_nm
## C00575795:203928 P00003392:203928 Clinton, Hillary Rodham :203928
## C00574624:138799 P60006111:138799 Cruz, Rafael Edward 'Ted':138799
## C00577130: 79955 P60007168: 79955 Sanders, Bernard : 79955
## C00580100: 77916 P80001571: 77916 Trump, Donald J. : 77916
## C00573519: 23694 P60005915: 23694 Carson, Benjamin S. : 23694
## C00458844: 8984 P60006723: 8984 Rubio, Marco : 8984
## (Other) : 15096 (Other) : 15096 (Other) : 15096
## contbr_nm contbr_city contbr_st
## Length:548372 Length:548372 Length:548372
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
##
## contbr_zip contbr_employer contbr_occupation
## Length:548372 Length:548372 RETIRED :142978
## Class :character Class :character : 29745
## Mode :character Mode :character NOT EMPLOYED : 24405
## LAWYER : 17517
## SELF-EMPLOYED: 13267
## (Other) :320321
## NA's : 139
## contb_receipt_amt contb_receipt_dt receipt_desc memo_cd
## Min. : 0.01 Length:548372 Length:548372 Mode:logical
## 1st Qu.: 25.00 Class :character Class :character NA's:548372
## Median : 40.00 Mode :character Mode :character
## Mean : 175.02
## 3rd Qu.: 100.00
## Max. :16600.00
##
## memo_text form_tp file_num tran_id
## Mode:logical Length:548372 Min. :1003942 Length:548372
## NA's:548372 Class :character 1st Qu.:1077404 Class :character
## Mode :character Median :1096256 Mode :character
## Mean :1097493
## 3rd Qu.:1133832
## Max. :1146285
##
## election_tp X city lon
## Length:548372 Mode:logical Length:548372 Min. :-124.03
## Class :character NA's:548372 Class :character 1st Qu.: -97.74
## Mode :character Mode :character Median : -96.93
## Mean : -97.11
## 3rd Qu.: -95.47
## Max. : -71.06
## NA's :613
## lat party cmte_nm cmte_dsgn
## Min. :24.66 Length:548372 Length:548372 Length:548372
## 1st Qu.:29.76 Class :character Class :character Class :character
## Median :30.26 Mode :character Mode :character Mode :character
## Mean :30.99
## 3rd Qu.:32.76
## Max. :46.88
## NA's :613
## contb_receipt_dt_day contb_receipt_dt_month contb_receipt_dt_year
## Min. : 1.00 OCT : 68919 Min. :13.00
## 1st Qu.: 8.00 JUL : 57731 1st Qu.:16.00
## Median :16.00 MAR : 56585 Median :16.00
## Mean :16.36 SEP : 52846 Mean :15.81
## 3rd Qu.:25.00 APR : 50181 3rd Qu.:16.00
## Max. :31.00 AUG : 49822 Max. :16.00
## (Other):212288
## contb_receipt_date
## Min. :2013-10-21
## 1st Qu.:2016-02-06
## Median :2016-04-29
## Mean :2016-04-27
## 3rd Qu.:2016-08-12
## Max. :2016-12-31
##
O dataset tratado contem 548.396 observações com 28 variaveis. O dataset original (sem tratamento) contém 18 variáveis.
É importante realizarmos uma analise sobre a distribuição das contribuições entre os candidatos. Nesta analise já classifiquei os candidatos por partido para identificação, com o intuíto de entender melhor como é a divisão entre as legendas. Para a difinição do partido, consideramos a classificação registrada na base de dados de candidatos obtida no site da FEC.
Nesta análise percebemos que a grande maioria das contribuições se concentram nos 4 primeiros candidatos, mas é importante notar que quando ordenamos por valor total arrecadado, existe um inversão nas posições. Devido a essa inversão farei uma análise focada nos 7 candidatos com maior volume arrecada, no lugar de 5 candidatos que era a idéia inicial.
Uma analise mais detalhada desse aspecto será realizada na seção de gráficos bivariados.
Como esperado, nota-se que a maior parte das contribuições se destinam aos candidatos democratas (DEM) e republicanos (REP), desta forma vamos considerar apenas estes 2 partidos nas analises. É importante percebermos pelo Boxplot que a as contribuições para os candidatos republicanos, no geral, possuem um valor unitário maior que as doações feitas aos democratas. Isto deve trazer um impacto no valor total arrecadado por partido, apesar de ambos possuirem qauntidades de contribuições semelhantes. Esta é uma analise a ser feita na seção de Gráficos Bivariados.
Na analise a seguir procurei fazer uma avaliação identificando como se foram realizadas as contribuições ao longo do período. Iniciei a analise verificando a distribuição das doações por ano e, em seguida, realizei a analise por mês.
Por fim, foquei no periodo de 2016, que é onde ocorreram a maior quantidade de doações.
## Min. 1st Qu. Median Mean 3rd Qu.
## "2013-10-21" "2016-02-06" "2016-04-29" "2016-04-27" "2016-08-12"
## Max.
## "2016-12-31"
Na sequencia analisei a distribuição das doações por quantidade. Nesta analiíse foi possível perceber como as contribuições de menores valores são as mais frequentes. Esse já era um comportamento esperado um vez que muitos eleitores não possuem muitos recursos para doar mas procuram ajudar com uma quantidade que esta ao seu alcance.
Para uma analise de um espectro maior de valores, reduzi o binwidth em 10x. Na sequência apliqei uma escala logaritima para exibir melhor o valores com menos contribuuções e reduzi o limite do eixo x com o objetivo de focar nos valores de contribuições mais frequentes, chegando no limite de um quartil de 95%.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01 25.00 40.00 175.02 100.00 16600.00
## 95%
## 700
Decidi classificar os valores de contribuição considerando as seguintes faixas de valores: - Até 100,00 - 100,01 a 500,00 - 500,01 a 2.000,00 - Acima de 2.000,00
## # A tibble: 30 x 2
## city count
## <chr> <int>
## 1 HOUSTON 71294
## 2 AUSTIN 57745
## 3 DALLAS 41118
## 4 SAN ANTONIO 30240
## 5 FORT WORTH 16307
## 6 SPRING 12167
## 7 PLANO 9603
## 8 EL PASO 7763
## 9 ARLINGTON 7324
## 10 KATY 6063
## # ... with 20 more rows
## # A tibble: 10 x 2
## contbr_occupation count
## <fctr> <int>
## 1 RETIRED 142978
## 2 29745
## 3 NOT EMPLOYED 24405
## 4 LAWYER 17517
## 5 SELF-EMPLOYED 13267
## 6 TEACHER 13119
## 7 HOMEMAKER 11325
## 8 ENGINEER 9016
## 9 PHYSICIAN 8817
## 10 SALES 6943
O conjunto de dados possui registros de contribuições para o estado de TX, com 28 atributos no arquivo tratado e 18 no arquivo original.
Os principais atributos deste conjunto de dados são os candidatos (cand_nm) e os valores das contribuições (contb_receipt_amt).
Atributos realcionados a origem das contribuições serão muito úteis nesta analise. Entre elas estão:
Além destas existem variáveis importantes como o partido do candidato.
Sim. Foram criados as seguintes variaveis: - A partir da data, criei colunas com os componentes da data de contribuição (dia, mês e ano) - Foram incorporados dados do dataset de CEP (zipcode): cidade, longitude e latitude - Foi adicionada uma coluna com faixas dos valores doados. - A partir da base de dados dos candidatos (obtido na FEC), foi incorporado o partido do candidato - A partir da base de dados dos comites (obtido na FEC), foi incorporado o nome do comite
Foram realizados tratamentos nos valores de contribuição. Para os valores negativos, foi considerado o valor absoluto. As contribuições zeradas foram eliminadas.
As datas de contribuição carregadas originalmente como caracter, foram convertidas para Date e quebrada em colunas separadas para dia, mes e ano.
Conforme apresentado na seção de tratamento de dados, fiz uma ajuste nos nomes das cidades para eleminar as cidades iguais registradas com grafias diferentes. O mesmo tratamento foi realizado para a ocupação dos contribuintes.
Todos os tratamentos foram realizados num script python a parte (tratarDados.py).
Aqui fiz uma analise das distriuição dos valores ao longo do tempo. No primeiro gráfico foi feita uma analise mais ampla por todo o período compreendido no dataset. No segundo reduzi o faixa de valores para o ano de 2016 e foi considerada as contribuições realizadas dentro de 99% da amostragem.
## `geom_smooth()` using method = 'gam'
## `geom_smooth()` using method = 'gam'
## Warning: Removed 101744 rows containing non-finite values (stat_smooth).
## Warning: Removed 104480 rows containing missing values (geom_point).
Nesta analise podemos perceber a presença de faixas horizontais bem definidas para os valores doados com mais frequncias. Estes normalmente ão valores redodndos. Uma faixa bem definida é a 2700 dolares, que era o limite máximo permitido para pessoas físicas Limites de contribuições - FEC. Considerando eleições primárias e geral, é possível uma doação de $5.400,00 (2.700 para cada).
Estas mesmas faixas podem ser percebidas quando analisamos a os valores de contribuição por candidato, como visto abaixo.
## Warning: Removed 7211 rows containing missing values (geom_point).
Nesta sequencia de gráficos vemos as relações entre candidatos e valores de contribuição. Ao contrário do que normalmente seria esperado, o candidato com mais contribuições não é o mesmo com maior valor arrecadado. O candidato Jeb Bush, apesar de possuir menos de 5% das contribuições de Bernard Sanders, conseguiu arrecadar um pouco que o este. No caso especial de Jeb Bush, isto pode ter relação com o fato do Texas ser o seu estado Natal, além da sua relação com os outros 2 ex-presidentes Bush (pai e irmão).
## # A tibble: 7 x 4
## cand_nm qtde valor_total valor_medio
## <fctr> <int> <dbl> <dbl>
## 1 Bush, Jeb 3578 4523399.1 1264.2256
## 2 Carson, Benjamin S. 23694 3830272.6 161.6558
## 3 Christie, Christopher J. 198 295205.0 1490.9343
## 4 Clinton, Hillary Rodham 203928 23341676.1 114.4604
## 5 Cruz, Rafael Edward 'Ted' 138799 33971577.3 244.7538
## 6 Fiorina, Carly 2541 682558.6 268.6181
## 7 Gilmore, James S III 5 11800.0 2360.0000
Um comportamento semelhante pode ser observado quando analisamos os 2 principais partidos (Democratas e Republicanos). Embora os democratas tenham uma quantidade de contribuições maior do que a dos republicanos (feitas principalmente em nome de Hillary Cinton), o valor arreacadado do segundo é quase o dobro do primeiro.
Na distribuição das doações entre as cidades do estado do TX, temos Austin em segundo, atrás apenas da cidade de Houston, porém quando analisamos o valor total, Dallas vem em segundo, deixando Austin em terceiro. Isto poderia estar relacionada a renda media de cada cidade mas sem os dados de rendimentos não é possível esta analise.
Por fim fiz uma analise da distribuição geográfica das doações com base nas informações de longitude (lon) e latitude (lat) recolhidas na base de dados de zipcode.
Como esperado, a maioria das doação estão concentradas na parte leste do estado, onde se localizam as cidades com maior quantidade de contribuições: Houston, Austin e Dallas.
## Warning: use rgdal::readOGR or sf::st_read
## Warning: use rgdal::readOGR or sf::st_read
## Object of class SpatialPolygonsDataFrame
## Coordinates:
## min max
## x -106.64565 -93.50804
## y 25.83716 36.50070
## Is projected: NA
## proj4string : [NA]
## Data attributes:
## STATEFP COUNTYFP COUSUBFP COUSUBNS GEOID
## 48:862 027 : 9 90005 : 1 01938476: 1 4800190650: 1
## 309 : 9 90010 : 1 01938477: 1 4800191205: 1
## 085 : 8 90015 : 1 01938478: 1 4800191390: 1
## 099 : 8 90017 : 1 01938479: 1 4800192615: 1
## 215 : 8 90020 : 1 01938480: 1 4800192945: 1
## 277 : 8 90025 : 1 01938481: 1 4800390085: 1
## (Other):812 (Other):856 (Other) :856 (Other) :856
## NAME NAMELSAD LSAD CLASSFP
## Cedar Creek Lake: 3 Cedar Creek Lake CCD: 3 22:862 Z5:862
## Amarillo : 2 Amarillo CCD : 2
## Dalhart : 2 Dalhart CCD : 2
## Fort Hood : 2 Fort Hood CCD : 2
## Gladewater : 2 Gladewater CCD : 2
## Kilgore : 2 Kilgore CCD : 2
## (Other) :849 (Other) :849
## MTFCC CNECTAFP NECTAFP NCTADVFP FUNCSTAT ALAND
## G4040:862 NA's:862 NA's:862 NA's:862 S:862 Min. :2.939e+07
## 1st Qu.:3.446e+08
## Median :5.289e+08
## Mean :7.850e+08
## 3rd Qu.:9.027e+08
## Max. :9.519e+09
##
## AWATER INTPTLAT INTPTLON
## Min. :0.000e+00 +25.9648763: 1 -093.7054610: 1
## 1st Qu.:1.255e+06 +26.1029227: 1 -093.7135949: 1
## Median :3.961e+06 +26.1388555: 1 -093.7757556: 1
## Mean :2.206e+07 +26.1503878: 1 -093.7858765: 1
## 3rd Qu.:1.177e+07 +26.1710987: 1 -093.7971206: 1
## Max. :1.262e+09 +26.1883773: 1 -093.8170037: 1
## (Other) :856 (Other) :856
## Warning: Removed 113 rows containing missing values (geom_point).
No início da análise dos dados tinha em mente fazer utilização apenas dos dados disponíveis no dataset. A partir dele comecei a fazer a análise das distribuição de valores do estado de NY. Neste ponto me deparei com as questões citadas no início do documento, que me fizeram mudar minha análise para os dados de outro esttado, o Texas.
Durante as primeiras análises percebi que muitos dados necessitavam de trartamento e então resolvi preparar um script em Python para realizar alguns ajustes. Outra observação feita com inicio do trabalho, foi que a necessidade de mais dados para análise e exclusão de algumas informações desnecessárias no dataset.
DIFICULDADE COM MAPA
Abaixo o link para referências usadas para este trabalho